第一章概率论的基本概念

对于世界上的所有事件，我们都能把它们分成两类：确定性现象和随机现象

对于前者，暂时没什么好讨论的
对于后者，在大量重复的实验中，人们发现虽然它每一次的结果都不确定，但总体结果却呈现出某种规律性，这种固有的、确定的规律性，我们称为统计规律性

统计是什么意思？为什么这里会出现这个词？它和概率论是什么关系？

统计学和概率论是两码事，但是它们关系匪浅。
统计，针对的是实际的数据，比如测量某一年里放晴的天数、计算某个人上学迟到的频率等等，这些都直接对应实际场景，具有很直白的现实意义。
概率，是对事件发生的可能性进行研究，它是更抽象一层的，不需要对应实际的事件，但它可以用来帮助对统计出的数据进行分析。

依我拙见，概率是一种从外部揭示事件发生规律的手段，而事件的规律又必须依托大量实际数据来展现，详细来说就是：事件的发生与否被一种我们暂未发现的规律（可以想象成某个数学公式）所掌控，这个规律在操控的同时也会将自身的特征投射在事件上，而统计学就是把这些特征收集起来并整理好，概率论就是试图通过这些特征来反过来逼近事件背后藏着的规律，甚至对规律的行为进行预测。
比如说，在打数模比赛的时候我就发现，在计算数据的平均值、标准差、偏度峰度之类的时候，我们都称其为计算统计量，和概率一点边都不沾。我做过的唯一一道和概率强相关的题只有2024国赛的B题，而那题一个附件（实际数据）也没有：题目已经把统计的事情帮选手干完了，直接给的是统计后的数据。

本系列的前大部分章节都是讲的概率论的知识，只有后面少数几章讲的是统计学。

随机试验

此处的试验二字含义很广泛，并不只表示进行科学实验，而是笼统地表示：对某一事物的某一特征进行观察。

随机试验是对随机事件进行反复的观察，要求是得在相同的条件下进行试验，并且在试验前就能明确其结果的所有可能性。

得在相同条件下这一点很好理解，毕竟条件不同的话事件发生的规律会发生变化，而我们是在假定规律不变的情况下进行概率的研究。

但是为什么要在试验前就明确结果的范围呢？如果不明确，这个试验不还是随机的吗，为什么不算是随机试验？

此随机非彼随机，我们口头上常说的”随机“，其实应该是指的不确定事件。没错，不打引号、专业术语的随机试验只是不确定事件的一部分，相当于我们给所有结果随机的事件又分了两类，一类是随机试验，需要满足上面那些条件，另一类是非随机试验，不需要满足那些条件。概率论所研究的主要是前者，而后者就暂时不提了。

样本空间、随机事件

假设有某随机试验 $E$
我们知道，随机试验的结果范围是已知的，而这个由可能的结果组成的集合 $S$ ，就称为 $E$ 的样本空间。样本空间的每个元素，即 $E$ 的每个结果，都称为样本点。集合 $S$ 的子集就叫做 $E$ 的随机事件，简称事件。换句话说，事件就是随机试验某些结果的集合。

严格来说，当 $S$ 的元素是无限且不可列的时候，某些子集不能作为事件。但本系列中将假定谈到事件时碰到的所有集合都不是这种子集。

所以，样本空间 $S$ 也是事件，而且是必然事件；相对地，空集 $\emptyset$ 就是不可能事件；特殊地，只包含一个样本点的事件叫做基本事件。

既然事件实质上就是集合，那么我们在集合论那里学过的东西就能派上用场了！

$A \subset B$ ：事件B包含事件A；若 $A \subset B, B \subset A$ ，则A和B相等
$A \cup B = {x | x \in A 或 x \in B}$ ：事件A和事件B的和事件（相当于两个集合的并集）
$A \cap B = {x | x \in A 且 x \in B}$ ：事件A和事件B的积事件（相当于两个集合的交集）
$A - B = {x | x \in A 且 x \notin B}$ ：事件A和事件B的差事件
$A \cap B = \emptyset$ ：事件A和事件B是互斥/互不相容的
$A \cap B = \emptyset 且 A \cup B = S$ ：事件A和事件B互为逆事件/对立事件。可以将A的对立事件记为 $\bar{A}$ 。

更多的集合论公式，比如交换律结合律之类的，此处不再多言。

频率与概率

写了这么多，概率终于露面了，但在此之前，我们还得了解一下频率。

在相同的条件下进行n次实验，在这n次实验中事件A发生的次数 $n_{A}$ ，就称为A发生的频数，而比值 $\frac{n_{A}}{n}$ 就是A发生的频率。频率值越大，表明事件发生得越频繁，也就可以说明事件在一次实验中发生的概率越大。而这也就引出了概率的概念。

虽然概率这个概念好像非常自然，但有人可能还会有疑问：概率是实际存在的吗？

比方说，我从宿舍走到教学楼所用的时间，这似乎是不确定的：有时候下雨，时间会长一点，如果马上要上课了，时间就会短很多，但总体而言大概率是在十五分钟左右的。那么如果我把所有会影响到时间的变量都掌握住呢，这样一来岂不是能够精准地预测时间？此时这个概率不就相当于不存在吗，因为最终的时间只可能是我所算出来的这个答案。

我觉得这种想法并不会对概率的必要性构成什么“威胁”（据说这种就是机械唯物主义？）。因为“控制所有变量”在现实中是完全不可能的，这也意味着上述的设想是没有什么意义的，概率在我们人类的世界里仍然并将永远存在下去。

概率的定义里有三条重要的条件：

非负性：对任意一个事件A， $P (A) \geq 0$
规范性：对必然事件S， $P (S) = 1$
可列可加性：若 $A_{I} A_{J} = \emptyset （两两互斥）, i \neq j, i, j = 1, 2, \dots$ ，则 $P (A_{1} \cup A_{2} \dots) = P (A_{1}) + P (A_{2}) + \dots$

以及几条重要的性质：

$P (\emptyset) = 0$
（有限可加性） $P (A_{1} \cup A_{2} \dots) = P (A_{1}) + P (A_{2}) + \dots$
若 $A \subset B$ ，则 $P (B - A) = P (B) - P (A), P (B) \geq P (A)$
$P (A) \leq 1$
（逆事件的概率） $P (\bar{A}) = 1 - P (A)$
（加法公式） $P (A \cup B) = P (A) + P (B) - P (A B)$
这一条相当于容斥原理
推广后得到：
$P (A_{1} \cup A_{2} \cup \dots \cup A_{n}) = \sum_{i = 1}^{n} P (A_{i}) - \sum_{1 \leq i \leq j \leq n} P (A_{i} A_{j}) + \dots + (- 1)^{n - 1} P (A_{1} A_{2} \dots A_{n})$

等可能概型（古典概型）

对于前文所说的试验，如果满足以下这两个条件，我们就称其为等可能概型：

样本空间的元素个数是有限的
试验中每个基本事件（样本点）发生的可能性相同

“概型”就是概率模型的意思，也就是试验的意思。
等可能概型很直观、容易理解，在概率论的发展初期，人们以它为主要的研究对象，所以我们也称其为古典概型（类似于密码学里的古典密码）

这种每个样本点概率都相同的试验，想必大家都再熟悉不过了，我们小学和中学阶段做过无数此类型的题目，所以我就不做过多叙述了。

等可能概型中事件A的概率的计算公式：
$P (A) = \frac{A 中包含的基本事件数}{S 中包含的基本事件数}$

显然，这里的 $P (A)$ 满足非负性、规范性、有限可加性，但是它是否满足可列可加性？

一般来说，有限可加性 $\neq$ 可列可加性 （相关的证明超出了我的知识范围故不作解释）。

不过在这里，我们可以假设在 $S$ 中取无限多个两两互不相容的事件，而 $S$ 本身的子集是有限的，所以这无限多个事件里会有无限个不可能事件，概率相加之后仍然等于那些有限个事件的概率之和，所以可以知道此时有限可加性和可列可加性是等价的。

实际推断原理：概率很小的事件在一次试验中实际上几乎是不发生的。

条件概率

在大多数情况下，我们其实研究的并不是单独一个事件的概率，而是两个乃至多个事件综合影响得到的结果。条件概率 指的就是在另一个事件 A 发生的条件/前提下，某个事件 B 发生的概率。

定义式为： $P (B ∣ A) = \frac{P (A B)}{P (A)}$

我认为值得一提的是， $P (A B)$ 和 $P (B A)$ 是一个意思，都是指事件A和事件B同时发生时的概率，A和B都是总事件的一部分，没有先后之分；而 $P (B ∣ A)$ 就不一样了，分隔符表示右边的这个A是条件，而不是事件的一部分，此时就有先后之分，但这个”先后“并非时间上的先后，只是逻辑上的而已。

显然，条件概率也能满足非负性、规范性、可列可加性。

由定义式，我们能得到下面这个定理：

乘法定理 $P (A B) = P (B ∣ A) P (A) = P (A ∣ B) P (B)$

可能有人要问：这和定义式不是一回事吗？只不过把分母乘过去了而已，这也要单独作为一个定理吗？

我认为这是因为虽然这两个式子本质上一样，但这是两种写法，代表了不同的含义，或者说是不同的角度。一种考虑的是条件概率的本质，另一种考虑的是总体事件的推演。

假设试验 $E$ 的样本空间是 $S$ ，那么把 $S$ 里的每个样本点都分个类，这些分出来的类的集合就是 $S$ 的一个划分。形式化来说就是： $B_{1}, B_{2}, \dots, B_{n}$ 是 $E$ 的一组事件，若

$B_{i} B_{j} \neq \emptyset, i \neq j$
$B_{1} \cup B_{2} \cup \dots \cup B_{n} = S$
则称 $B_{1}, B_{2}, \dots, B_{n}$ 是 $S$ 的一个划分。

像这样对样本空间进行划分，可以更加方便我们表示事件及事件之间的关系。

由前面提到过的各种性质，我们可以得到两个非常常用的公式：

全概率公式
若 $B_{1}, B_{2}, \dots, B_{n}$ 是 $S$ 的一个划分，
则 $P (A) = P (A ∣ B_{1}) P (B_{1}) + \dots + P (A ∣ B_{n}) P (B_{n})$

贝叶斯公式
若 $B_{1}, B_{2}, \dots, B_{n}$ 是 $S$ 的一个划分，且 $P (A) > 0, P (B_{i}) > 0$
则 $P (B_{i} ∣ A) = \frac{P (A ∣ B_{i}) P (B_{i})}{\sum_{j = 1}^{n} P (A ∣ B_{j}) P (B_{j})}$

我们在使用这些公式的时候会发现，有的时候我们是在”正“着计算概率，有时却是”倒“着计算，这其实就是所谓的 先验概率 和 后验概率 之分。

独立性

为了简化概率的计算，我们把一部分不会对彼此概率产生影响的事件挑出来作为一类，称其两两之间相互独立，很容易就能得到独立的定义式：
若 $P (A B) = P (A) P (B)$ ，则称 A 和 B 相互独立。

一些相关的性质：

若 A 和 B 相互独立，则 $P (A ∣ B) = P (A)$ （这条性质直观地表明了：相互独立的事件之间不会影响彼此发生的概率）
若 A 和 B 相互独立，则 $A$ 和 $\bar{B}$ 、 $\bar{A}$ 和 $B$ 、 $\bar{A}$ 和 $\bar{B}$ 之间也都相互独立

需要特别注意的一点是：相互独立并不表示A的发生不会影响B，而是表示A的发生不会影响B发生的概率。

我用一道课后习题来作为例子：
在一个盒子里有四个球，编号分别为1号、2号、3号、4号，一个人随机拿出一个球。
事件A：拿出的球是1号或2号
事件B：拿出的球是1号或3号
此时， $P (A) = \frac{1}{2}, P (B) = \frac{1}{2}, P (A B) = \frac{1}{4}$
则 $P (A B) = P (A) P (B)$ ，事件A和事件B的确是相互独立的
显然，事件A的发生对事件B是有影响的，但是没有影响B的概率：
如果A发生了，那么B有一半的概率发生；如果A没有发生，B也还是有一半的概率发生
也即： $P (B ∣ A) = P (B ∣ \bar{A})$

独立的概念还可以继续推广：

设 A、B、C 是三个事件，则
$P (A B) = P (A) P (B)$
$P (A C) = P (A) P (C)$
$P (B C) = P (B) P (C)$
$P (A B C) = P (A) P (B) P (C)$
这四个条件合在一起，是 $A, B, C 相互独立$ 的充分必要条件

为什么这四个条件缺一不可呢？
其实网上已经有了很多精妙的回答，我此处只粗浅地谈一下我的理解：
类似于探讨两个事件独立性时的思路，看 ABC 和 A、B、C 之间的独立性，其实就是看当 A、B、C 发生或不发生对 ABC 的概率的影响。如果只有前三个条件的话，就忽略了三个事件整体之间的影响。
有很多这样的例子，比如说：盒子里有四个球，一个人随机拿出一个。
事件A：拿出的是1或4号；事件B：拿出的是2或4号；事件C：拿出的是3或4号
单看这三个事件，它们两两之间都是相互独立的，如果事件A发生了，这不会影响到我对事件B是否发生的判断；而如果事件A和事件B都发生了，那么就影响到了我对事件C是否发生的判断